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基于 多 权 值 的 Slope One 协同 过 滤 算 法 - 


覃 幸 新 王 荣 波 ” 黄 孝 喜 ”说 志 群 


(杭州 电子 科技 大 学 认 知 与 智能 计算 研究 所 ”杭州 310018) 


摘要 : 【 目的 ] 针对 Slope One 算法 未 考虑 项 目 相似 性 、 项 目 属性 和 对 目标 用 户 已 有 评分 同等 考虑 进而 导致 推荐 
准确 度 降 低 的 问题 进行 改进 。[ 方法 ] 提出 一 种 基于 改进 的 项 目 相似 性 度量 、 改 进 的 项 目 属性 相似 性 度量 和 用 户 


< 


评分 概率 函数 的 多 权 值 的 Slope One 协 同 过 滤 算 法 ,在 项 目 相 似 性 度量 方面 将 共同 评价 的 两 个 项 目的 用 户 数 量 和 
Pearson 相关 系数 相 融 合 , 在 项 目 属性 相似 性 度量 方面 将 修正 的 拉 普 拉 斯 平滑 与 Jaccard 系数 相 结 合 ,， 同时 利用 用 


户 评分 概率 函数 对 用 户 已 有 评分 进行 有 效 区 分 。[ 结果 ] 实 验 结果 表明 ,本文 方法 相 比 于 原 Slope One 算法 , MAE 
值 下 降 了 5.4%， 能 够 获得 更 好 的 推荐 准确 度 。[ 局 限 】 只 关注 推荐 系统 中 用 户 对 项 目 产生 的 评分 , 并 没有 关注 用 
户 对 项 目 给 出 的 评论 , 在 一 定 程度 上 影响 了 推荐 效果 。[ 结论 】 本 文 方法 更 能 适应 评分 数据 稀疏 性 ， 有效 提高 了 


推荐 系统 的 推荐 质量 。 
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1 3 引 


随 着 现代 信息 技术 的 迅猛 发 展 , 互联 网 信息 充斥 
着 人 们 的 生活 ， 人 们 从 信息 匮乏 时 代 走 向 了 信息 过 载 
时 代 。 从 海量 的 用 户 历史 数据 中 提取 出 有 价值 的 信息 
变 成 如 今 信息 时 代 的 难题 , 推荐 系统 正 是 旨 在 解决 这 
一 难题 而 逐渐 成 为 一 个 热门 的 研究 课题 。 协 同 过 滤 
(Collaborative Filtering，CF) 算 法 是 推荐 系统 中 主流 的 
算法 之 一 站， 其 中 基于 内 存 的 协同 过 滤 算 法 分 为 基于 
用 户 的 协同 过 滤 算 法 (User-based Collaborative Filtering, 
UCF) 和 基于 项 目的 协同 过 滤 算 法 (tem-based Collaborative 
Filtering, ICF) 两 种 中 ,基于 项 目的 协同 过 滤 算 法 则 是 通 
过 对 项 目 进行 相似 性 度量 进而 寻找 最 近邻 ,基于 项 目 
最 近邻 将 类 似 的 物品 推荐 给 用 户 。 本 文 研 究 的 Slope 
One 算法 (Slope One Algorithm, SO) 是 Lemire 等 外 提出 
的 一 种 基于 项 目的 协同 过 滤 算 法 , 但 是 和 传统 基于 项 
目的 协同 过 滤 算 法 不 同 的 是 , Slope One 算法 通过 计算 
项 目 之 间 的 平均 评分 偏差 并 结合 目标 用 户 已 有 评分 进 


了 中 


行 评分 预测 。 相 比 上 述 两 种 传统 的 协同 过 滤 算 法 ,有 具 
有 运用 简单 快捷 、 对 新 用 户 和 新 项 目 适应 性 强 和 运行 
效率 高 等 优点 。 

本 文 针对 Slope One 算法 未 考虑 项 目 相似 性 、 项 
目 属性 和 对 目标 用 户 已 有 评分 同等 考虑 进而 导致 推荐 
准确 度 降低 的 问题 , 提出 一 种 基于 改进 的 项 目 相似 性 
度量 、 改 进 的 项 目 属 性 相似 性 度量 和 用 户 评分 概率 函 
数 的 多 权 值 的 Slope One 协同 过 滤 算 法 ,使 得 具有 不 
同 项 目 相 似 度 的 项 目 数据 、 不 同 的 项 目 属性 相似 度 和 
不 同 的 目标 用 户 评分 概率 以 不 同 的 权 值 参与 到 评分 预 
测 中 , 提高 了 推荐 准确 度 。 


2 相关 工作 


2.1 Slope One 算法 

Slope One 算法 是 一 种 简洁 且 高 效 的 评分 预测 算 
法 , 其 核心 思想 是 采用 线性 回归 方法 进行 评分 预测 ， 
其 线性 回归 公式 表示 为 f(x)=x+b 四 ,其 中 , x 为 在 推荐 
系统 中 目标 用 户 对 项 目 产 生 过 的 历史 评分 ,b 为 项 目 之 
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间 的 平均 评分 偏差 。 对 于 评分 和 矩 阵 中 不 同 的 项 目 i 和 
有 它们 的 平均 评分 偏差 dew 计算 方法 如 公式 (1) 所 示 。 
vel, (ri ry) 四 
IU; | 
其 中 , ri 表示 用 户 w 对 项 目 i 的 评分 , Uj 表示 对 项 
目 i 与 j 都 产生 了 评分 的 用 户 集 合 , |U| 表 示 和 集合 Uj 中 
的 用 户 个 数 。 
利用 公式 (1) 求 得 两 个 项 目的 平均 评分 偏差 dev; 后 ， 
用 mprev 表 示 使 用 Slope One 算 法 进行 评分 预测 得 到 的 用 
户 & 对 项 目 的 评分 ,其 计算 方法 如 公式 (2) 所 示 。 
2 erooCy + devy) O) 
17() | 
其 中 , Zw) 表 示 用 户 w 产生 过 评分 , 且 满 足 (i 
IUj| > 0) 的 项 目 集 合 。 
2.2 ”Weighted Slope One 算法 
Slope One 算法 在 计算 项 目 i 相对 于 项 目 ji 的 平均 
评分 偏差 dew 时 没有 考虑 到 使 用 对 两 个 项 目 都 产生 过 


dev 
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评分 进行 有 效 区 分 。 故 本 文 针对 这 些 问 题 , 提出 基于 
改进 的 项 目 相似 性 度量 、 改 进 的 项 目 属性 相似 性 度量 
和 用 户 评分 概率 函数 的 多 权 值 的 Slope One 协同 过 滤 
算法 ,对 项 目 和 用 户 进行 了 综合 考虑 ,对 不 同 的 项 目 
和 用 户 进 行 有 效 的 区 分 , 改善 了 推荐 系统 对 评分 数据 
稀 玻 性 的 适应 性 ， 提 高 了 推荐 的 准确 度 。 


3 基于 多 权 值 的 Slope One 协同 过 滤 推 荐 
算法 
3.1 基于 改进 的 项 目 相似 度 度量 的 Slope One 算法 
Weighted Slope One 算法 仅 是 简单 地 选取 同时 对 
两 个 项 目 都 产生 过 评分 的 用 户 数 量 作为 权重 , 在 进行 
评分 预测 时 并 没有 考虑 到 项 目 之 间 的 差异 ， 导 致 相似 
性 较 低 的 项 目 对 评分 预测 产生 了 干扰 ,而 相似 性 较 高 
的 项 目 没 能 有 效 参 与 到 评分 预测 中 。 协 同 过 滤 旨 在 排 
除 海量 数据 中 不 利信 息 对 推荐 系统 的 干扰 ,而 对 有 利 
言 息 加 以 充分 利用 。 故 在 使 用 Slope One 算法 产生 推 


评分 的 用 户 数量 来 调整 dev;j 在 评分 预测 中 的 权重 。 显 
而 易 见 ， 对 两 个 项 目 共同 评分 的 用 户 数量 不 同 导 致 
dev; 的 可 靠 度 不 同 。 假 设 有 500 个 用 户 对 项 目 i 和 项 
目 j 都 产生 过 评分 , 而 只 有 50 个 用 户 对 项 目 i 和 项 目 
都 产生 过 评分 , 那么 显然 dev;j 比 devi 更 可 靠 , dev; 应 
该 以 更 高 的 权 值 参 与 到 评分 预测 中 。 故 文献 [和 提出 了 
加 权 Slope One 算法 (Weighted Slope One Algorithm, 

WSO) 如 公式 G3) 所 示 。 
a > jer() (Ny + devi ) |U; | (3) 

2 jereol Uy | 

Slope One 算法 在 计算 两 个 项 目的 平均 评分 偏差 
进而 进行 评分 预测 时 没有 对 不 同 用 户 和 项 目 加 以 区 
分 ， 导致 推荐 结果 不 够 准确 。 莅 艳 等 MM 基于 Slope One 
算法 预测 评分 矩阵 中 必要 的 未 评分 项 ,利用 基于 用 户 
的 协同 过 滤 推 荐 算法 实现 推荐 ; Wang 等 四 先 将 用 户 聚 
类 处 理 , 然后 对 聚 类 后 的 用 户 群 使 用 Slope One 算法 
进行 评分 预测 ， 提 高 了 推荐 质量 ; 张 玉 连 等 中 使 用 
Jaccard 系数 找 出 具有 影响 力 的 用 户 和 使 用 Pearson 方 
法 找 出 当前 项 目的 相似 项 目 对 Slope One 算法 进行 加 
权 ; 刘 林 静 等 外 通过 评定 用 户 活跃 度 的 方式 筛选 出 活 
跃 用 户 , 将 活路 用户 度 作为 评分 预测 的 权重 进而 改善 
推荐 准确 度 。 然 而 上 述 方法 均 没 有 对 项 目 和 用 户 进 行 
综合 考虑 ， 且 都 尚未 对 参与 到 评分 预测 中 的 用 户 已 有 


有 一 数据 分 析 与 知识 发 现 


荐 时 , 项 目 相似 性 较 高 的 项 目 应 该 以 更 高 的 权 值 参 与 
到 评分 预测 中 , 相似 性 较 低 的 项 目 应 该 以 一 个 较 低 的 
权 值 参与 到 评分 预测 中 , 将 项 目 相似 性 作为 一 个 合理 
的 权 值 参 与 到 评分 预测 能 够 有 效 提 高 推荐 效果 。 传 统 
的 相似 性 度量 方法 有 余弦 相似 性 、Pearson 相关 系数 、 
改进 的 余弦 相似 性 外 ,其 中 用 Pearson 相关 系数 进行 项 
目 评分 相似 性 度量 如 公式 (4) 所 示 。 

2 ev, Ci -Fry -5) 


3 ueU; wu 一 2 全 ueU,; (ny — 2 
其 中 , 元 和 志 分 别 为 项 目 i 和 项 目 j 的 评分 均值 。 
但 是 , 在 大 多 数 推荐 系统 中 ， 由 于 用 户 评 分 的 项 

目 往 往 不 超过 总 项 目 数 的 1%10M, 评分 数据 的 稀 跑 不 

能 准确 地 获取 用 户 偏 好 , 影响 了 协同 过 滤 推 荐 算法 的 

性 能 , 是 协同 过 滤 推 荐 面临 的 一 大 挑战 趾 。 在 用 户 评 

分 数据 较 多 的 情况 下 , 用 上 述 Pearson 相关 系数 度量 

项 目 评分 相似 性 一 般 都 能 取得 不 错 的 度量 效果 , 但 是 

在 评分 数据 稀 玻 的 情况 下 用 Pearson 相关 系数 则 不 能 

准确 地 计算 出 项 目 之 间 的 相似 性 ， 因 为 Pearson 相关 

系数 度量 项 目 评 分 相似 性 将 对 两 个 项 目 都 产生 了 评分 

的 用 户 作 为 计算 的 集合 , 假设 这 个 集合 很 小 而 且 对 两 

个 项 目 都 产生 了 评分 的 用 户 对 两 个 项 目的 评分 十 分 相 

近 , 所 得 的 项 目 相 似 性 会 偏 高 , 但 实际 上 这 是 不 可 靠 


(4) 


Sim, (i, j) = 


的 。 既 然 对 两 个 项 目 都 产生 评分 的 用 户 数量 较 小 , 直 
接 将 由 这 些 用 户 评分 计算 得 到 项 目 相似 性 作为 评分 预 
测 的 权重 就 会 产生 较 大 的 误差 .因为 少量 的 用 户 评分 
具有 较 大 的 偶然 性 , 不 具备 较 强 的 说 服 力 。 

本 文 针对 Slope One 算法 的 适用 场景 , 将 共同 评 
价 了 两 个 项 目的 用 户 数量 和 Pearson 相关 系数 度量 方 
法 相 融 合 ,提出 一 种 改进 的 项 目 评分 相似 性 度量 方法 ， 
计算 方法 如 公式 (5) 所 示 。 


Vyr 
(5) 
[Ui|"IU ;| 
其 中 ,Ui 表示 对 项 目 i 产生 过 评分 的 用 户 数 ，| Ul 
表示 同时 对 项 目 i 和 项 目 j 产生 过 评分 的 用 户 数 。 
将 其 作为 Slope One 算法 的 一 个 权 值 参与 到 评分 
预测 ， 得 到 基于 改进 的 项 目 相似 度 的 Slope One 算法 
(Improved Item Similarity based Slope One Algorithm, 
ISSO) 的 评分 预测 方法 ， 如 公式 (6) 所 示 。 
jar ty + devy): sim, (i, ) 
(6) 
> jel(w) Sim, (i, J) 
公式 (5) 考 虑 了 共同 评分 项 目 数 对 项 目 相 似 度 的 
影响 ,在 共同 评分 项 过 少 且 评 分 较为 接近 的 情况 下 ， 
可 以 避免 直接 使 用 Pearson 相关 系数 度量 导致 相似 度 
过 高 的 问题 。 因 此 将 公式 (3) 中 改进 的 项 目 相 似 性 作为 
一 个 权 值 引入 到 Slope One 算法 中 可 以 缓解 评分 数据 
稀 足 情 况 下 直接 使 用 Pearson 相关 系数 度量 不 够 准确 
的 问题 , 能 够 将 项 目 相 似 性 以 一 个 更 合理 的 权 值 参 与 
到 评分 预测 ,使 评分 预测 更 为 准确 ， 有 效 提高 推荐 的 
准确 度 。 
3.2 ”基于 改进 的 项 目 属 性 度量 的 Slope One 算法 
在 推荐 系统 中 , 不 管 是 电子 商务 系统 或 是 社交 网 
络 所 涉及 到 的 项 目 往 往 都 会 有 类 别 信息 , 一 个 项 目 往 
往 同 时 属于 几 个 类 别 , 例如 一 部 电影 可 以 同属 于 爱 ' 
片 和 喜剧 片 。 传 统 的 基于 项 目 评分 的 相似 性 度量 忽 
了 项 目 之 间 往 往 存在 的 属性 联系 , 很 显然 两 个 项 目 属 
性 类 别 交集 越 多 那么 它们 就 越 类 似 , 将 项 目 属性 相似 
性 作为 一 个 权 值 引入 到 Slope One 算法 中 可 以 弥补 项 
目 评分 相似 性 度量 不 够 准确 时 给 推荐 系统 带 来 的 问 
题 ， 提 高 推荐 质量 。 传 统 的 计算 项 目 属性 相似 度 的 方 
法 为 Jaccard 系数 ， 即 将 项 目 属 性 的 交集 与 并 集 的 比 作 
为 项 目的 属性 相似 性 。 但 是 在 实际 应 用 中 项 目的 属性 
往往 较 少 , 项 目 属性 的 交集 也 就 更 小 甚至 是 没有 交集 ， 


sim, (i, j) = sim, (i, ): 
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这 就 导致 了 直接 使 用 Jaccard 系数 进行 项 目 属性 相似 
性 度量 时 出 现 较 多 的 零 值 ,造成 参与 到 评分 预测 中 的 
项 目 属性 相似 性 为 零 , 这 显然 过 于 绝对 , 不 能 因为 两 
个 项 目 之 间 没 有 共同 的 属性 就 视 项 目 属性 相似 性 为 
零 ， 这 样 会 对 评分 预测 产生 较 大 的 偏差 。 针 对 在 度量 
项 目 属性 相似 性 时 直接 使 用 Jaccard 系数 出 现 的 零 相 
似 性 问题 , 本 文 引 入 修正 的 拉 普 拉 斯 平滑 (Laplace 
Smoothing), 提出 一 种 新 的 项 目 属性 相似 性 度量 方法 
如 公式 (7) 所 示 。 


|4N4;|+a 

[4 UAltNa (7 

其 中 ,| 4; 门 4;| 和 | 4U4j | 分别 表示 两 个 项 目 
属性 的 交集 和 并 集 , N 的 取 值 为 两 个 项 目 交 集 的 最 大 
值 ， 为 可 调 参 数 。 

拉 普 拉 斯 平滑 主要 是 为 了 解决 概率 统计 中 某 些 分 
量 在 样本 中 没有 出 现 过 而 导致 的 零 概率 问题 ， 常 见 的 
方式 为 分 子 直 接 加 1, 分 母 加 上 样本 容量 的 大 小 ,在 概 
率 统计 中 , 假设 样本 很 大 ,对 统计 结果 的 计数 加 1 造 
成 的 概率 变化 可 以 忽略 不 计 , 然而 推荐 系统 中 两 个 项 
目 属性 交集 较 小 , 直接 加 1 显然 会 带 来 较 大 的 误差 。 
所 以 针对 推荐 系统 的 适用 场景 , 在 原 有 Jaccard 系数 计 
算 公 式 中 设置 一 个 可 调 参数 w (0< w <1), 通过 选取 
合适 的 c 值 计 算 项 目 属性 相似 性 。 则 相应 的 基于 项 目 
属性 的 Slope One 算法 (Item Attributes based Slope One 
Algorithm, IASO) 的 评分 预测 方法 如 公式 (8) 所 示 。 
三 > jerQn) (Wy + dev;;): sima (i, )) 

> jer() Sima li, ]) 

3.3 ”基于 用 户 评分 概率 函数 的 Slope One 算法 

在 公式 (3) 中 ,对 于 每 个 目标 用 户 已 有 的 评分 是 不 
加 区 分 的 ， 即 公式 中 每 个 vj 的 权 值 都 是 1，, 这 就 忽略 
了 用 户 的 评分 习惯 及 尺度 的 问题 , 在 一 定 程度 上 影响 
了 推荐 的 质量 。 有 些 用 户 偏向 于 打 高 分 有 些 用 户 则 
偏向 于 打 低 分 , 偏向 于 打 高 分 的 用 户 评分 中 出 现 的 较 
低 分 不 应 该 代表 用 户 在 大 多 数 情况 下 给 出 的 评分 , 参 
与 到 评分 预测 中 的 权重 应 该 适当 减少 , 偏向 于 给 低 分 
的 用 户 的 情况 也 类 似 。 对 于 多 数 情 况 , 在 用 户 所 有 历 
史 评 分 中 出 现 较 多 的 评分 应 该 以 更 大 的 权重 参与 到 评 
分 预测 中 ， 因 为 这 部 分 评分 代表 了 用 户 更 倾向 给 出 的 
评分 有 较 大 的 概率 出 现 。 所 以 对 于 目标 用 户 的 不 同 
评分 , 在 评分 预测 中 应 该 有 不 同 的 权重 。 本 文 将 用 户 z 


Simali, )) = 


(8) 
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对 项 目 评分 值 为 rate 的 概率 表示 为 以 ”“, 则 其 计算 方法 
如 公式 (9) 所 示 , 用 户 评分 概率 函数 计算 方法 如 公式 (10) 
所 示 ,， 则 相应 的 基于 用 户 评 分 概率 函数 的 Slope One 
算法 (User Rating Probability Function based Slope One 
Algorithm, UPSO) 的 评分 预测 方法 如 公式 (11) 所 示 。 


(9) 


其 中 ,| ww? | 表示 用 户 wu 评分 中 评分 为 rate 的 个 
数 ，| | 表示 用 户 uw 对 所 有 项 目 产 生 的 评分 个 数 。 


fp = pr) (10) 
pr 2 jel() (Ty Ws f(p») dy 
2 jerw fp ) 


3.4 基于 多 权 值 的 Slope One 算法 

上 述 ISSO 算法 可 以 在 一 定 程度 上 缓解 评分 数据 
稀 踊 对 推荐 系统 的 影响 , 引入 项 目 属 性 可 以 有 效 平衡 
项 目 相 似 性 度量 不 够 准确 情况 下 市 来 的 不 利 影响 ， 最 
后 引入 用 户 评分 概率 函数 从 用 户 评分 尺度 和 个 人 偏好 
的 角度 调整 每 个 用 户 已 有 评分 的 权重 ， 从 用 户 和 项 目 
两 方面 综合 考虑 ， 可 使 评分 预测 更 加 趋 于 合理 ,提高 
推荐 系统 的 稳定 性 和 推荐 质量 。 故 将 上 述 公 式 (5)、 公 
式 (7)、 公 式 (10) 和 公式 2) 组 合 可 以 得 到 基于 多 权 值 的 
Slope One 算法 (Multi-Weights based Slope One 
Algorithm, MWSO)， 其 评分 预测 方法 如 公式 (12) 所 示 。 


2 jr Cy + devy) sim (i D) simali, )): f (pw) 
2 je Sim, i, D) sima (i, 7)):f(p") 
(12) 
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4 实验 及 分 析 


4.1 数据 集 

本 文采 用 的 数据 集 为 MovieLens 站 点 提供 的 来 自 
不 同时 间 段 的 用 户 对 电影 评分 的 ml-100k 数据 集 , 该 
数据 集 记 录 了 有 过 浏览 行为 的 943 个 用 户 对 1 682 部 
电影 的 历史 评分 信息 , 并 且 提 供 了 电影 名 称 、 电 影 类 
型 、 上 映 时 间 等 电影 属性 信息 ,其 评分 数据 稀 玻 度 为 
93.7%。 本 文 实验 选取 的 项 目 属性 为 电影 类 型 ， 电 影 类 
型 有 和 科幻、 冒险、 动作 、 喜 剧 等 18 种 类 型 ， 一 部 电影 
可 以 有 多 个 类 型 。 本 文 将 该 站 点 提供 的 数据 集 按 4:1 
的 比例 分 成 训练 集 和 测试 集 , 通过 训练 集 的 评分 数据 
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预测 测试 集中 已 有 的 评分 。 
4.2 评价 指标 

在 评判 推荐 算法 的 准确 度 方面 , 通常 把 平均 绝对 
偏差 (Mean Absolute Error MAE)023 作 为 其 指标 。MAE 
通过 计算 从 训练 集 预 测 得 到 的 用 户 评分 与 测试 集中 用 
户 的 真实 评分 的 平均 绝对 差 值 进行 推荐 算法 的 准确 性 
衡量 。 假设 预 测 得 到 的 用 户 评 分 为 {91, s2,…, s， 对 应 
的 用 户 真 实 评 分 为 {11, bb,…, t;}， 则 MAE 的 计算 方法 
如 公式 (13) 所 示 。 


MAE ST (13) 


4.3 结果 及 分 析 

(1) ISSO 算法 与 SO 算法 对 比 实验 

为 了 验证 ISSO 算法 的 推荐 准确 度 ,实验 将 评分 
数据 按 用 户 个 数 为 100、200、…、900 分 成 9 组 , 分 
别 使 用 ISSO 算法 和 SO 算法 在 不 同 用 户 数 下 进行 评分 预 
测 , 各 自 计算 其 MAE 值 , 所 得 的 实验 结果 如 图 1 所 示 。 
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图 1 ISSO 算法 与 SO 算法 对 比 实验 结果 


通过 对 比 实验 的 结果 可 以 看 出 在 不 同 用 户 数 下 
ISSO 算法 的 MAE 值 均 明显 低 于 SO 算法 , 说 明 ISSO 
算法 的 预测 准确 度 要 高 于 SO 算法 , 能 够 获得 好 的 推 
荐 效果 。 

(2) IASO 算法 与 SO 算法 对 比 实验 

本 文 提 出 的 IASO 算法 中 w (0< x 1) 为 可 调节 
参数 , 针对 推荐 系统 的 适用 场景 ,每 次 实验 将 参数 w 
递增 0.1 进行 评分 预测 并 计算 MAE 值 进行 比较 。 作 为 
对 比 的 SO 算法 不 含 参数 w ,其 MAE 无 变化 趋势 ， 所 
得 的 实验 结果 如 图 2 所 示 。 
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图 2 IASO 算法 与 SO 算法 对 比 实 验 结 果 


分 析 实 验 结果 可 知 , 当 w 为 0 时 , 项 目 属性 相似 
度 的 度量 方式 变 为 Jaccard 系数 度量 , 计算 所 得 MAE 
值 较 大 , 所 以 wx 为 0 不 是 最 好 的 取 值 。 当 c 的 取 值 从 
0 到 0.1 时 ，MAE 值 呈 下 降 趋势 ,推荐 准确 度 有 所 提 
升 , 当 & 从 0.1 逐渐 增 大 , MAE 值 呈 上 升 趋势 ， 推荐 质 
量 下 降 。 当 vc 为 1 时 , 项 目 属性 相似 度 的 度量 方式 变 
为 引入 没有 修正 的 拉 普 拉 斯 平滑 及 加 一 平滑 的 项 目 相 
似 性 度量 , 其 MAE 值 较 高 ,， 推荐 效果 也 不 理想 。 可 见 
& 取 值 过 小 或 者 过 大 都 不 利于 项 目 属性 以 合适 的 权 
重 参 与 到 评分 预测 中 ， 当 & 值 为 0.1 时 计算 所 得 的 
MAE 值 最 小 ,推荐 准确 度 最 高 。 

(3) UPSO 算法 与 SO 算法 对 比 实验 

与 实验 (2) 类 似 , 将 公式 (9) 中 参数 8 的 取 值 范 围 设 
为 [0.1, 0.9], 每 次 实验 将 参数 8 递增 0.1 进行 评分 预测 
并 计算 MAE 值 。 同 样 将 SO 算法 作为 对 比 , 所 得 的 实 
验 结果 如 图 3 所 示 。 
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图 3 UPSO 算法 与 SO 算法 对 比 实验 结果 


从 实验 结果 可 知 , 当 8 取 值 为 0.6 左 右 时 UPSO 算 
法 的 MAE 值 最 小 , 推荐 准确 度 最 高 。 结 合用 户 评分 概 


率 函 数 以 评分 出 现 概率 的 形式 区 分 用 户 的 评分 , 使 用 
户 的 评分 以 一 个 合理 的 权 值 参与 到 评分 预测 , 使 推荐 
更 加 准确 。 

(4) MWSO 算法 与 SO 算法 及 其 改进 算法 对 比 实验 

与 实验 (1) 类 似 , 将 评分 数据 按 用 户 个 数 为 100、 
200、…、900 分 成 9 组 , 分 别 设置 参数 a 和 参数 Pp 为 
0.6 和 0.1, 使 用 MWSO 算法 进行 评分 预测 , 并 用 SO 
算法 、WSO 算法 及 文献 [7] 提 出 的 融合 用 户 相 似 度 与 
项 目 相 似 度 的 加 权 Slope One 算法 中 的 MSO2 算法 进 
行 对 比 ， 所 得 的 实验 结果 如 图 4 所 示 。 
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图 4 MWSO 算法 与 SO 算法 及 其 改进 算法 
对 比 实验 结果 


从 对 比 实验 可 以 看 出 , 在 不 同 的 用 户 数 下 MWSO 
算法 相 比 SO 算法 、WSO 算法 及 MSO2 算法 其 MAE 
值 下 降 明 显 ,， 即 MWSO 算法 可 以 得 到 更 好 的 推荐 准 
确 度 。 可 见 结合 了 项 目 相似 性 、 项 目 属性 和 用 户 评分 
概率 的 MWSO 算法 可 以 综合 用 户 和 项 目 因素 优势 互 
补 ， 且 当 其 中 一 方 度量 不 够 准确 时 另 一 方 可 以 对 参与 
到 评分 预测 中 的 权重 进行 平衡 , 使 推荐 系统 在 多 种 不 
确定 因素 面前 保持 性 能 的 相对 稳定 , 保证 推荐 质量 。 


S 结 语 


本 文 研 究 的 Slope One 算法 相 比 传统 协同 过 滤 算 
法 具有 运用 简单 快捷 、 对 新 用 户 和 新 项 目 适 应 性 强 和 
运行 效率 高 等 优点 , 但 在 计算 过 程 中 未 考虑 项 目 相 似 
性 、 项 目 属性 及 未 区 分 用 户 已 有 评分 , 造成 推荐 准确 
度 缺 失 。 针 对 这 些 问题 , 本文 一 共 提 出 了 4 种 方法 ， 即 
基于 改进 的 项 目 相似 度 度量 的 ISSO 算法 、 基 于 改进 
的 项 目 属性 相似 度 度量 的 IASO 算法 、 基 于 用 户 评分 
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概率 函数 的 UPSO 算法 和 将 上 述 三 种 算法 进行 组 合 的 
基于 多 权 值 的 MWSO 算法 。 实验 结果 表明 ,上 述 从 用 
户 或 者 项 目 角 度 改进 后 的 算法 相 较 于 原始 SO 算法 均 
可 得 到 更 高 的 推荐 准确 度 , 综合 了 用 户 和 项 目 因素 的 
基于 多 权 值 的 MWSO 算法 的 实验 效果 最 为 突出 , 相 
比 原始 SO 算法 MAE 下 降 了 5.4%， 有 效 改 善 了 推荐 系 
统 对 评分 数据 稀 玻 性 的 适应 性 ， 提 高 了 推荐 准确 度 。 
然而 本 文 提出 的 算法 中 都 只 关注 了 用 户 对 项 目 产生 的 
评分 , 没有 关注 用 户 对 项 目 给 出 的 评论 , 造成 一 些 关键 
性 信息 缺失 。 因 此 如 何 将 用 户 的 评分 和 评论 更 好 地 结合 
起 来 对 用 户 产生 推荐 将 是 下 一 步 的 重要 研究 内 容 。 
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Slope One Collaborative Filtering Algorithm Based on Multi-Weights 


Qin Xingxin Wang Rongbo Huang Xiaoxi Chen Zhiqun 
(Institute of Cognitive and Intelligent Computing, Hangzhou Dianzi University, Hangzhou 310018, China) 


Abstract: [Objective] This paper aims to increase the recommendation accuracy with the help of modified Slope One 
algorithm. [Methods] We proposed a Slope One Collaboration Filtering Algorithm based on multi-weights, which 
improved the items’ similarity measure, attributes similarity measure and userS” rating probability function. Then, we 
combined the items’” similarity measure with the number of users and Pearson correlation coefficient, the items’ 
attributes similarity measure with modified Laplacian smoothing and Jaccard coefficient. We also identified users’ 
ratings with a new probability function. [Results] The proposed method reduced the MAE by $5.4%, which increased 
the recommendation accuracy. [Limitations] The new method did not examine the users’ comments, which might pose 
some negative effects to the recommendation accuracy. [Conclusions] The proposed algorithm could effectively 
improve the service of recommendation systems. 


Keywords: Collaborative Filtering Slope One Multi-Weights Item Similarity Item Attributes 


Delta Think 和 LibLynx 合作 简化 开放 获取 数据 分 析 工 具 的 访问 


Delta Think 和 LibLynx 于 近日 宣布 合作 ,进一步 增强 Delta Think 开创 性 的 开放 获取 数据 分 析 工 具 (Open Access Data 
Analytics Tool OADAT) 的 用 户 体验 。 

OADAT 将 Delta Think 的 知识 和 专长 与 强大 的 数据 分 析 和 可 视 化 功能 相 结合 ,为 OA 出 版 市 场 提供 前 所 未 有 的 见解 。 利 
用 Delta Think 汇总 、 组 织 、 标 记 参 照 引用 ,并 不 断 更 新 的 对 开放 获取 影响 的 评述 ,以 及 可 执行 细 分 切片 和 切割 信息 的 交互 式 
工具 , 组 织 可 以 深入 了 解 与 之 直接 相关 的 信息 。 

LibLynx 的 身份 和 访问 管理 解决 方案 使 得 Delta Think 的 OADAT 能 够 快速 打包 成 为 一 个 企业 订阅 服务 。LibLynx 的 基于 
Web 的 管理 工具 使 得 通过 一 系列 流行 的 机 构 身 份 验 证 方法 设置 和 配置 基于 订阅 的 访问 变 得 快速 简单 ,简化 了 用 户 的 访问 。 

Delta Think 的 首席 执行 官 Ann Michael 表示 :“ 将 LibLynx 访问 管理 部 署 到 Delta Think OA 数据 分 析 工 具 , 使 发 布 商 和 机 
构 的 无 颖 访问 成 为 现实 。 这 种 合作 关系 使 我 们 的 用 户 能 够 轻松 地 在 其 组 织 内 分 享 洞察 和 数据 分 析 ， 鼓励 数据 驱动 的 战略 发 展 
和 对 标 比 较 文 化 。” 

(编译 自 : http://www.liblynx.conyliblynx-delta-think-partner-to-simplify-institutional-access-to-0adat/) 


(本 刊 讯 ) 


Data Analysis and Knowledge Discovery 


